首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏用户画像

    订阅评论

    参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String

    92721发布于 2018-08-24
  • 来自专栏数据爬取

    爬虫 | 评论爬取下载,同步获取一二级评论

    今天给大家分享一款简单到有点简陋的评论专门的爬取下载小工具。很多同学写论文、自媒创作想要从上去爬取一些素材,总是感到力不从心,有了这款小工具,相信以后就再也不用发愁了。 言归正传,下面我们就来看看这款小工具:简单或者说简陋的界面我们先打开更新cookie的教程链接,更新一下软件目录下的weibo_cookie,因为是需要登录后才可以显示更多内容的。 所以这个登录信息必须要提前做,不然将只能查看一页也就是只能采集到一页的评论内容。 cookie文件cookie值要复制到文件当中,过期了要更新一下这个Mid,也就是文采集表格当中的这列字段,对应后面的评论数,我们随便找一个。复制一下,粘贴到软件当中,回车,软件就自动运行了。 导出的文件发现一级及二级评论均已经在表格当中了,字段包括评论数,点赞数,评论内容、评论用户、时间等。

    2.1K50编辑于 2022-11-14
  • 来自专栏数据魔术师

    如何爬取评论

    01 前言 ,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间就爆炸。 主要是因为不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,信息量巨大,也为我们爬数据提供了基础! 数据爬取 是的,今天,我们就来爬一下评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。 Tip:准备工作 ? 页面如下图所示: ? 总结 这次我们只介绍了爬取新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

    2.2K40发布于 2019-07-10
  • 来自专栏IT 茂茂

    Python爬虫 抓取评论

    .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从 注册的手机号) password = "123456" # 密码 cookie_path = "Cookie.txt" # 保存cookie 的文件名称 id = '4477416430959369' # 爬取的 ', 'username', 'following', 'followed', 'gender']) start_crawl(get_cookies(), id) 第八步:获取id 你需要获得想要找的 首先找到你想爬的,这里以故事为例,在浏览器内按下F12,并且点击评论按钮 点击‘网络’,找到一条像图中的get请求。 .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从

    2.1K20编辑于 2022-05-11
  • 来自专栏月小水长

    2023 评论爬虫 | 突破 1000 页限制,抓取 10w 条评论

    相比较一条的正文内容,评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对评论的抓取需求较大,笔者在以往分享过几个评论抓取的代码或者教程: 2021 新版评论及其子评论爬虫发布 新增 ip 属地,抓得更多,超级评论爬虫大更新 维护了三年依然有效,但是有一个问题,由于接口限制,很多评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条中爬到上万条评论甚至几十万条评论呢 这是一个全新的评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段 在趋势分析 tab,可以按照月、天、小时、分钟四个维度对评论评论数和点赞数、回复数的变化趋势可视化。 在属地分析 tab,可以直观的看到评论用户的属地分布: 情感分析 tab 则是对每一条评论文本的情感做了极性比例可视化: 最后一个 tab 则是对所有的评论文本分词后进行词云可视化,并且可以在网页上自定义停用词

    4.5K20编辑于 2023-07-03
  • 来自专栏用户8670130的专栏

    查看评论数据文件

    0 2020-10-15 22:29 /warehousedrwxr-xr-x - root supergroup 0 2020-10-15 22:29 /workspace 六、需求:上传蔡徐坤评论数据到 里面包含了大量蔡徐坤相关的评论数据集,我们需要将这些数据集上传到HDFS中。 <dst> (2)上传评论数据 创建对应的文件夹。

    95530发布于 2021-08-31
  • 来自专栏Java项目实战

    评论功能系统设计

    图片评论功能是一种非常常见的社交媒体功能,它允许用户对进行评论和互动。在设计评论功能时,需要考虑用户体验、安全性、性能和可扩展性等方面。本文将详细介绍如何设计评论功能。 功能需求分析在设计评论功能之前,需要进行功能需求分析,明确该功能需要实现哪些功能。具体功能如下:(1)用户可以在下方评论框内输入文本并提交评论评论表的结构如下图所示:评论表包括以下字段:(1)评论ID:唯一标识评论的ID。(2)ID:评论所属的ID。(3)评论内容:评论的文本内容。(4)评论人ID:评论人的ID。 具体API接口如下:(1)添加评论API地址:/comment/add请求方法:POST请求参数:ID:的ID。评论内容:评论的文本内容。评论人ID:评论人的ID。 请求示例:{"commentId": "789"}返回参数:无(4)查询评论列表API地址:/comment/list请求方法:GET请求参数:ID:的ID。

    1.8K30编辑于 2023-03-22
  • 来自专栏九陌斋

    根据话题爬取评论

    思路阐述 获取 weibo.com获取url、用户名称以及内容等信息 进一步根据用户名称在weibo.com中进行用户url获取 根据构建的用户url在weibo.cn中爬取发布者的信息 评论获取 根据上面获取的标识,构建weibo.cn中对应的地址 根据正则表达式获取评论内容 完整代码 # -*- coding: utf-8 -*- # @Time : 2021/12/ card-wrap"][' + str(i) + ']/div[@class="card"]/div[1]/div[2]/div[1]/div[2]/a')[0].text # = 0: print('正在爬取第',page,'页,第',i,'条评论。') ', '关注数', '粉丝数', '评论内容', '评论时间', '点赞次数']) getTopic(url) #去话题页获取 详细讲解 更多详细的内容记录在CSDN平台上了:https:

    67120编辑于 2022-12-26
  • 来自专栏Python中文社区

    Python爬虫之评论爬取

    專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟登录 需要爬取登录之后的信息 ,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录,首先,我们找到某明星的网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端 ,你会发现,你点击网址会自动跳转到登录的界面(没有跳转的注销掉自己的账号),如下图所示: ? 然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星网址的请求头即可。 ? 异步加载数据如何爬取 我在网上看过移动端的数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条评论的js包。

    1.4K60发布于 2018-02-01
  • 来自专栏爱写Bug

    围观网友发起的美胸比赛学习爬取评论内容

    ------ 首先进入开发者工具看一下结构: [weibocom.png] 这只是一小部分,评论用户发的页面,里面都是以html5格式传到本地的,把内容格式化之后就会发现,层级非常复杂 上图就是评论列表的评论,可以看到每条评论如果有图片,就会有 pic 属性,但是要注意在 pic 下的 直接子 url 只是预览图链接,并非原图。 + cid + max_id + max_id_type' 其中 cid 是每一条的唯一ID,max_id 是下一次传回数据的最后一条评论的 ID。 也就是往下翻看评论,每次显示十条,并在这次所看的评论里就传回 下十条评论 的最后一条评论的唯一 ID,是根据这个 ID 传回下十条内容。 这也就直接限制了每次爬评论、二级评论时只能一次获取十条,也无法利用线程池加速,因为只有获取了这十条才知道下十条请求地址里 max_id 的值。

    2K70发布于 2019-07-15
  • 来自专栏月小水长

    评论在线分析可视化上线

    有没有这么一种可能,在抓取网站抓取数据比如评论后,立刻在线可视分析? 有的,现在它来了。 界面介绍 还是同一个站点,子页面名为 weibo-comment-visual。 可以看到,页面大致分为两部分,上部分 DataSelect 是选择将要分析的评论文件的地方。 这两个部分正对应着两个流程,第一步选择好评论爬虫文件后,下部分数据分析会自动刷新。 下面具体来说明这五个 tab。 原始数据 Tab 这个 Tab 很简单,就是上面选择文件的表格化展示。 趋势分析 Tab 这个 tab 是分析一些随时间变化的指标,如发布的评论数,评论的点赞数和回复数。时间纬度可以按分钟、按小时、按天、按月。 同时,可以勾选平滑趋势使得这些折线图更为光滑一些。 词云生成 tab 将的所有评论文本计算词频生成的词云图。 可以添加停用词,比如我不想看到这个 doge。

    1.1K20编辑于 2023-01-30
  • 来自专栏九陌斋

    2021最新爬虫——根据话题名称获取所有相关评论

    由于课程大作业需要进行一些有关NLP的分析,在网上没有找到特别好使的代码,所以就干脆自己写一个爬虫,可以根据话题名称对其内容、评论内容、发布者相关信息进行爬取,目前作者测试是没有特别的问题的。 -首先确定抓取内容、评论数、点赞数、发布时间、发布者名称等主要字段。 获取url、用户名称以及内容等信息 2. 进一步根据用户名称在weibo.com中进行用户url获取 3.根据构建的用户url在weibo.cn中爬取发布者的信息 评论获取: 1.根据上面获取的标识,构建weibo.cn中对应的地址 writer.writerow(['类别', '用户名', '用户链接', '性别', '地区', '数', '关注数', '粉丝数', '评论内容', '评论时间', '点赞次数']) 存入微

    4.7K11编辑于 2022-12-27
  • 来自专栏月小水长

    数据浅谈评论异常流量和水军账号

    近年来,评论区的异常评论流量现象甚嚣尘上,背后是大量的营销账号的扰乱视听以及作为他们的傀儡的水军账号的推波助澜,本篇利用评论爬虫采集的公开数据,简单分析了这些现象的一些表征和原因。 以人民日报发表的关于 #吴亦凡被批捕# 这条及其评论数据为例子。 网页显示有近 18w 条,实际抓取去重后有 10w 稍有余的数据,包括根评论和回复,后文分析评论时,仅针对分析发一天内的评论评论者粉丝数 gender 评论者性别 第一步,可视化该条发布后一天内每分钟新发评论数量时间线。 分析结果显示,一天之内,一个账号最多针对该发布了 26 条评论,发布 10 条评论以上的账号多达 30 余人,这些账号具有一定的营销号或水军嫌疑,目前只能手动点开主页浏览去确定,长期地,我想输出一个模型

    2.3K10编辑于 2021-12-15
  • 来自专栏木下学Python

    爬取热搜评论生成词云

    前言 博大家都很熟悉了,时不时就谁谁上了热搜,底下评论什么都有,我们想获得评论信息做个简单的分析,可以用爬虫爬取,但花费的时间可能有点多,还会面临反爬,给我们开了 api 接口,我们可以调用方便的获取数据 点击【连接】【其他】,新建应用 点击建好的应用 ? 文档查看 我们点击【文档】,找到评论接口,我们选择【获取某条评论】 ? 点开文档后,里面都有详细参数,我们只需要评论的数据,还有其它的数据,用户 id,地区等数据,你可以自制选择玩出你的花样 ? 怎么接入授权爬取数据文档也有 ? 爬取 打开一条,找到它的 id,一般就是 url 后面那串数字 ? 接下来写爬取逻辑,其中画线的是接入方法,id 是刚刚的 id,count 设置一页获得数量,默认50 ?

    4.8K50发布于 2019-12-18
  • 来自专栏Python研究者

    pyhton爬取爱豆(李易峰)评论

    今日目标:,以李易峰的为例: https://weibo.com/liyifeng2007? is_all=1 然后进入评论页面,进入XHR查找真是地址: https://weibo.com/aj/v6/comment/big? print(real_id,filename) 输出如下: [format,png] 第一个就是我们需要的ID,后面则是发的时间,我们用它来做存储评论数据的文件名称。 id={real_id}&page=1' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容 page}' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容

    69420发布于 2021-06-29
  • 来自专栏月小水长

    新增 ip 属地,抓得更多,超级评论爬虫大更新

    这是 月小水长 的第 130 篇原创干货 2021 新版评论及其子评论爬虫发布 发布将近一年了,其中大大小小陆续更新过好几次,主要是由于 weibo.com 改版或者新增 feature。 这次的更新也是如此,一者 weibo.com 对评论接口的修改,使得之前的版本能抓到的评论变少了;二是因为评论 ip 属地需要新增。 开始构建所需的关键词在 2021 新版评论及其子评论爬虫发布 获取。 网站地址: https://weibo-super-comment-spider.buyixiao.xyz/

    92210编辑于 2022-09-03
  • 来自专栏萝卜大杂烩

    lxl再次爆雷,我连夜爬了评论,结果。。。

    今天我们作为纯正的吃瓜群众,怎么能不来围观下呢,还是到娱乐圣地“”搞起,不管它里面到底有多少xujia流量,反正我估计骂人的流量不会太假,啊哈哈哈哈 ? 我们使用的爬取工具还是前面文章提到的轮子,具体的使用方法可以查看这里 自造轮子,再爬姐姐和奶奶殿下 而我们爬取的就是“娱乐有饭”最新发的那个视频,如果你还没看,建议在饭前观看! ? 我们先来简单看下这篇下的盛况吧 亲情演绎型 ? 哈哈,说过要饭前观看喽 暴躁粗口型 ? 说实在的,出不出娱乐圈和我们瓜民有啥关系? 淡定吃瓜型 ? 不过这么看,毕竟只能看到一小部分,下面就通过轮子,抓取该下所有的评论,看看广大群众们的吃瓜能量。 我们通过程序,可以成功抓取对应的评论信息,并得到一个 csv 文件,里面的内容如下 ? 最后我又打开了亮哥的,心疼,保重! ?

    57440发布于 2020-05-22
  • 评论系统设计:扛住百万级评论与嵌套回复的全方案

    评论系统设计:扛住百万级评论与嵌套回复的全方案一条热门评论区,可能在 1 小时内涌入 100 万条评论,每条评论又会引发上百条 “楼中楼” 回复;用户不仅要求 “发评论秒成功”,还希望 “刷回复不卡顿 分库分表:解决单表性能瓶颈核心思路:按业务 ID(biz_id,如 ID)哈希分片,确保同一的所有评论落在同一分表,避免跨表查询。 缓存层级存储介质缓存内容有效期适用场景本地缓存Caffeine(Java)超热门的前 20 条一级评论(如百万赞)5 分钟首页推荐的热门,高频访问分布式缓存Redis Cluster1. 根评论的回复列表10 分钟非热门评论加载缓存预热Redis预告活动的评论(如演唱会官宣、节日活动)动态更新已知会爆发的热门事件,提前缓存(1)缓存结构设计(Redis)一级评论列表(按时间排序 读请求分流:让 “热门” 与 “普通” 隔离热点隔离:标记 “热门”(评论数>10 万或点赞数>50 万),将其评论缓存到独立的 Redis 集群(热点集群),避免普通请求挤占资源;热门评论查询走

    50710编辑于 2025-11-04
  • 来自专栏AI篮球与生活

    干货|Pyecharts如何绘制词云图《三十而已》的评论分析

    为了更好的来展示Pyecharts词云图的可视化效果,小编就从最近大火的焦虑贩卖剧《三十而已》的评论着手,看看观众看了该部剧之后到底做出了哪些评论,以及观众对该部剧的看法具体是什么样子的。 ? 分词处理 评论数据往往是一句或者是一段完整的话,所以在绘制词云图之前首先要进行分词处理,这里小编采用的分词库是jieba,而且添加了停用词库,目的是为了去除掉标点符号、副词等无意义词汇 ? 当然读者也可以选择其他图案来选择词云图的背景图案,从网友的评论中可以看出其评论也是主要集中在“顾佳”的家庭矛盾,当然也有不少的网友对许幻山的演技抱有蛮高的评价,当然在pyecharts中词云图的制作其实和其他图片的制作流程都相差不大

    60320发布于 2020-08-18
  • 来自专栏Python绿色通道

    一篇文章教会你使用Python抓取评论

    1 Part1——理论篇 试想一个问题,如果我们要抓取某个博大V评论数据,应该怎么实现呢?最简单的做法就是找到评论数据接口,然后通过改变参数来获取最新数据并保存。 首先从api寻找抓取评论的接口,如下图所示。 ? 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。 ? 接下来小编又选择的移动端网站,先登录,然后找到我们想要抓取评论,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示。 ? 可以看到总共有4个参数,其中第1、2个参数为该条的id,就像人的身份证号一样,这个相当于该条的“身份证号”,max_id是变换页码的参数,每次都要变化,下次的max_id参数值在本次请求的返回数据中 2、请求的时候需要带上cookie数据,cookie的有效期比较长,足够抓一条评论数据了,cookie数据可以从浏览器分析工具中找到。 ?

    69630发布于 2021-01-25
领券